Поисковые системы

В этом разделе я рассмотрю по тематике несколько популярных поисковых, метапоисковых, гибридных и многих других систем поиска Интернета, а в заключение коснусь вопросов поиска русскоязычных документов в Сети, т.к. за последние несколько лет в России созданы свои мощные поисковые системы Интернета, индексирующие русскоязычную часть сети. В мой обзор попали поисковые серверы, удостоенные в декабре 1997 г. титула "PC Magazine Editor Choice" - HotBot и Yahoo! Вы смело можете использовать любой из перечисленных серверов для поиска интересующих Вас документов - это превосхоные узлы. Кроме того я обязательно расскажу о других очень мощных и популярных поисковых серверах (системах) - AltaVista и Excite.

Достаточно полный же список популярных поисковых ситем Интернета, насчитывающий не один десяток серверов, Вы найдёте на странице http://www.zdnet.com/products/internetuser/search-tools.html. А вот обзор русскоязычных поисковых систем представлен на странице http://ww.comptek.ru/arcadia/review/review_rus.html. Правда, когда я попытался проверить этот список, некоторые из указанных там серверов не подавали признаков жизни или были на реконструкции. Нельзя дважды войти в одну и ту же сеть! И всё это по той простой причине, что в Сети всё меняется очень быстро - вчерашние аутсайдеры выходят в лидеры, появляются новые интересные узлы и "дряхлеют" признанные фавориты. И если Вы хотите всегда быть в курсе перемен в области поисковых систем, то обращайтесь к свежим выпускам зарубежной и русскоязычной компьютерной прессы, ссылки на которую к Вашему счастью имеются на моём сайте. (прим. Щёлкните левой кнопкой мыши на заголовок (название) интересующего Вас Web-сайта из нижеприведённого списка для отображения ниже более подробной информации о том или ином сайте.)

Международные поисковые системы Интернета

HotBot (Hotwired Inc. и Inktomi Inc.)
http://www.hotbot.com

HotBot - один из относительно новых поисковых серверов (систем) Интернета, разработанный 
совместно компаниями Hotwired и Inktomi. Это один из классических представителей
Web-индексов, база данных которого, составленная на основе просмотра полных текстов
документов, содержит сведения о почти сотне миллионов стрниц Web. HotBot ранжирует
результаты поиска согласно ряду коэффициентов (факторов), включая частоту появления ключевых 
слов в заголовке и специальных разделах страницы на языке HTML (HyperText Markup Language
 - язык разметки гипертекста). В очень многих случаях поиск с помощью этой системы "попадает в
яблочко" - искомые документы находятся в числе первых 20 ссылок, возвращённых поисковым
сервером. (прим. На данный момент имеется информация о слиянии этого поискового сервера
с другой "гибридной" системы поиска - Lycos.)
        Особенностью HotBot являются очень широкие возможности задания целевых условий поиска.
Как указно в обзоре PC Magazine: "...Ни один из других поисковых серверов не предлагает в своём
интерфейсе такого количеста опций поиска, как HotBot". Можно объединить ключевые слова с 
помощью булевых операторов, ограничить поиск файлами определённого типа, сузить географию
поиска отдельной страны, домена Интернета или даже отдельного узла Web. Одна из опций
интерфейса HotBot помогает в нахождении документов, в котором упоминаются имена людей,
состоящие из нескольких слов в любой последовательности (например, поиск по имени Sergey
Golubev вернёт ссылки на документы, где это имя записано как Golubev, Sergey).

        HotBot - один из лучших инструментов, если надо найти отбор специфичеких слов или фраз
типа "1997 Coca-Cola Annual Report". Он также эффективен в поисках, которые основаны на
детализированных запросах. Эксперименты особо отмечают лёгкий в работе интефейс HotBot
с многочисленными раскрывающимися списками и переключателями.
        Следует указать, что хотя HotBot позволяет находить документы, составленные на русском
языке, практика показала, что этот сервер вряд ли можно отнести к эффективным системам поиска
русскоязычных документов - количество русскоязычных документов, проиндексированных
"пауками" HotBot, на пару порядков меньше, чем текстов на английском языке.

Yahoo! (Yahoo Inc.)
http://www.yahoo.com

Этот сервер - одна из легенд Интернета, живое воплощение американской мечты о
возможности создать "с нуля" собственный многомиллионный бизнес. История Yahoo! началась
в апреле 1994 г. , когда 26-летний Джерри Янг и 28-летний Давид Фило, тогдашние аспиранты
Стэнфордского университета (США), обнаружили, что поиск информации в Интернете можно
упростить созданием списков имеющихся серверов. Как это сделали бы и многие другие студенты,
они реализовали свою идею в строках программного кода. Вскоре из этого начинания родилсь
специальная Web-страница, получившая название Yahoo! (Yet Another Hierarchically Officious Oracle).
(прим.В книге Д. Кирсанова "Понятный Internet", Символ-Плюс, 1996/97 г., указывается иная
легенда происхождения названия Yahoo! Это имя, как пишет автор, сервер получил по имени
лошадиного народа "йэху" из "Путешествий Гулливера" Дж. Свифта. Кто знает...)
Сегодня Yahoo! содержит сведения о документах примерно в 25 000 категориях, и ежедневно
в базу данных поступают сведения о нескольких тысячах новых документов. Интересно, что в
соответствии с традициями "раннего" Yahoo!, база данных во многом пополняется за счёт
добровольного участия многих тысяч пользователей, посылающих в адрес Web-мастера Yahoo!
электронные письма с указанием сведений о своих WWW-страницах. Для того чтобы обработать
такое количество информации, требуется наличие большого штата сотрудников и, соответственно,
денежных средств для оплаты их труда. Поэтому, чтобы оставатся прибыльным предприятием,
руководство Yahoo! активно привлекает рекламу на свои самые популярные страницы.

Многие специалисты признают, что ручная обработка информации является слабым местом
Yahoo!, которое может позволить более "технологичным" поисковым серверам перехватить
лидерство и признание пользователей Интернета. Однако они же соглашаются с тем, что Yahoo! -
это прежде всего известное имя, Brand Name. А имея такое имя, можно заработать средства на
реализацию дорогих технологий.

Одним из примеров проникновения высоких технологий в ручной Web-каталог является
тесная интеграция Yahoo! и мошного Web-индекса AltaVista. Если по запросу пользователя не
удаётся найти нужные документы в каталогах Yahoo!, на помощь приходит AltaVista, и на экран
выводятся ссылки, найденные уже этим сервером.

В течение достаточно продолжительного (по меркам Интернета) времени Yahoo! остаётся
самым популярным поисковым сервером Интернета, причём во многом благодаря особому духу,
стилю, которым пронизан этот поисковый сервер (система). Пользователей Yahoo! ждут забавные
сведения и шутки, появляющиеся на сервере в дни различных праздников (например, таких, как
День Святого Валентина, покровителя всех влюблённых).

Excite (Excite Inc.)
http://www.excite.com

Это ещё одна сравнительно новая поисковая система, быстро добившаяся признания
пользователей Сети. Сервер Excite с самого начала был основан как чисто коммерческий проект,
предпринятый восемью выпускниками Стэнфордского Университета.
        Узел Excite рассчитан на объектно-ориентированный и "понятийный" (concept) поиск по
ключевым словам. Понятийный поиск - это новая методология поиска, впервые реализованная
в Excite. Она подразумевает нахождение документов, содержащих термины, близкие к введённым
словам по смыслу. Примером понятийного поиска может быть ввод слов  The Environment
 (окружающая среда). В этом случае будут найдены документы, содержащие самые разные
сведения, касающиеся окружающей среды, а не только те из них, где это слово непосредственно
присутствует в текстах.

        Полнотекстная индексная база Excite в середине 1998 года содержала сведения о более чем
50 млн. документах (http://corp.excite.com/News/press_releases/05261998major_evolution_in_search.html).
Так же, как и AltaVista, Excite позволяет проводить поиск по телеконференциям UseNet, и общее
число индексируемых телеконференций превышает 10 тысяч.

        Найденные документы ранжируются по степени соответствия (relevancy) предмету поиска,
и результаты с наивысшей степенью выводятся на экран первыми. Кроме того, можно задать вывод
ссылок по названиям документов или по их местонахождению (по именам WWW-серверов, Sort by
Site). Последний способ достаточно удачно позволяет показать, сколько найденных документов
хранится на конкретном сервере. Такое часто бывает полезно, если по некоторой теме найдено
множество документов. Опция поиска "More like this" позволяет найти дополнительные документы,
сходные по тематике с текущим. При этом в ключевых словах поддерживается различие заглавных
и строчных букв. отдельные сервисы, предоставляемые Excite, - это разделы City.Net, посвящённые
страницам, рассказывающим о городах мира, и сетевой журнал Excite Live! Предполагается, что эти
разделы разовьются в отдельные Web-узлы.

        Excite принадлежит к классу поисковых систем "гибридного" типа. Кроме поиска по индексной
базе данных, здесь представлены специальные обзоры, подготовленные специалистами Excite.
Аналитик журнала PC Magazine отмечает, что Excite показывает высокие результаты в случае так
называемого простого поиска (Simple Search), когда выводится всего одно ключевое слово.
Web-мастера найдут здесь бесплатное прграммное обеспечение Excite for Web Servers 1.x для
организации внутреннего поиска по своим серверам (http://www.excite.com/Info/linking4.html).

        Правда очень хитро, как пишет журнал "ZD Interactive Week", добывает информацию этот
поисковый сервер - Excite. На своих страницах он предлагал всем администраторам Web-серверов
бесплатную копию программного обеспечения поисковой системы для организации внутреннего
поиска по их WWW-серверу. Многие администраторы с удовольствием пользуются такой
возможностью, поскольку по правилам хорошего тона каждый "солидный" WWW-сервер должен
иметь средства внутреннего поиска документов. Учитывая высокую стоимость покупки подобного
ПО или достаточно большое время, нужное для разработки своего внутреннего поискового
сервиса, это является хорошим подарком системным админисраторам WWW.

        Однако в случае с этим сервером - Excite, у этого подарка имеется и оборотная сторона
(правда, безвредна для WWW-сервера). Обеспечивая внутренний поиск по серверу, эти копии
программного обеспечения (ПО) Excite одновременно "перекачивают" сведения о документах
серверов, на которых они установлены, на "материнский" глобальный поисковый сервер,
остроумно решая таким образом проблему поиска и обновления информации.

AltaVista (Digital Equipment Corp.)
http://www.altavista.com

AltaVista - одна из самых популярных поисковых систем Интернета. Это достаточно новая
поисковая система, появившаяся в декабре 1995 г. в результате реализации специального
исследовательского проекта, осущесвлённого корпорацией Digital Equipment Corp. (DEC). Одной из
важных задач проекта была реклама аппаратных средств Digital - внимание пользователей
акцентируется на том, что аппаратная часть поисковой системы выполнена на нескольких
RISC-серверах с процессорами Digital Alpha (на сегодняшний момент - на машинах с AlphaServer
8400). Это действительно очень мощная поисковая система, поддерживающая гигантскую
индексную базу по серверам WWW и телеконференциям UseNet.
        В результате поиска в качестве выходных данных AltaVista возвращает URL, название и первые
несколько строк документа. Это даёт пользователю дополнительную возможность оценки степени
важности найденного документа перед его загрузкой на свой компьютер. Кроме режима простого
поиска (simple search) возможен расширенный поиск (advanced search), включающий булевы
операторы (AND, OR, NOT) и задание критериев ранжирования документов. Например, при
использовании расширенного поиска можно узнать, что первыми в списке результатов поиска
следует привести документы, в которых, наряду с заданными ключевыми словами, наиболее часто
встречаются ещё и другие опрелелённые слова. Как отмечает журнал PC Magazine, преимущество
AltaVista перед другими поисковыми серверами проявляется именно в случае проведения
"расширенного поиска" с большим числом ограничений.

        Огромная база данных AltaVista позволяет находить "редкие" документы, а возможности
расширенного поиска помогают выделить нужные документы, когда простой поиск даёт слишком
большой список ссылок. В некоторых случаях результат простого поиска может быть огромен:
например, ввод ключевого слова "Netscape" привёл бы к тому, что были бы обнаружены ссылки на
миллионы документов.

        Для российских пользователей кроме того факта, что AltaVista прекрасно выполняет поиск
русскоязычных документов, важно также и то, что этот сервис имеет высокую степень доступности
благодаря отличным каналам, связывающим крупных российских провайдеров и EUnet. Поэтому не
случайно AltaVista находится в списке поисковых систем, называемых прямо в меню Internet Explorer
4-ой и 5-ой версиях наравне с такими Web-индексами, как Rambler, Яndex и Апорт!

Webcrawler (Webcrawler Inc.)
http://www.webcrawler.com

Кроме классических индексов и каталогов, в Интернете существуют и "гибридные" поисковые
системы, в которых можно воспользоваться и индексной базой данных и структуированными
тематическими каталогами. Такой и является система поиска Webcrawler. Другими примерами таких
"гибридных" серверов являются Lycos (http://www.lycos.com), уже ранее рассмотреный Excite 
(http://www.excite.com).

Lycos (Lycos Network Inc.)
http://www.lycos.com

Один из примеров "гибридной" поисковой системы, которая обладает функцией индексной
базы данных и структуированных тематических каталогов. Сама корпорация Lycos Networks имеет
огромных размеров собственные сети и управляет (владеет) самыми распространёнными сайтами
и порталами (Интернет-магазинами, - областями e-Buisness) Интернета. Lycos уже даже соединился 
с поисковой системой HotBot, образуя превосходно мощную систему  многофункционального и
безграничного поиска. (прим.Правда недавно испанская Internet-фирма Terra Networks и
американская компания Lycos (Lycos Network) объявили о своем объединении. Так как рыночная
стоимость компании Terra втрое больше, чем у Lycos, то здесь можно говорить о покупке
американского портала (а также и поисковой системы) испанской компанией, что само по себе
является первым случаем в истории Интернета. 
        Сумма этой сделки составит около 12,5 млрд дол. Однако она еще должна быть одобрена
собраниями акционеров обеих компаний. И если это произойдет (в чем мало кто сомневается), то
будет создана первая действительно глобальная Internet-компания, объединяющая рынки Европы,
Северной и Южной Америки, которая сможет на равных поспорить с такими гигантами как
America Online (http://www.aol.com) и Yahoo (http://www.yahoo.com). Предполагается, что сделка
будет завершена в третьем квартале текущего года.
        В результате будет создан Internet-гигант под названием Terra Lycos, который будет и
Internet-провайдером и владельцем многоязычного глобального Web-портала с 50 млн пользователей
 из 37 стран мира. 
        Terra Networks сейчас доминирует на рынках Испании и Латинской Америки, теперь она
получит доступ и на англоязычные рынки Lycos, на испано-язычный рынок США, в Германию и
Францию, где работают порталы Lycos Europe).

AccuFind Search Service
http://accufind.com

В приведённых выше разделах описания сайтов (в этом случае поисковых серверов) я
ознакомил Вас с некоторыми популярными поисковыми системами (серверами) Интернета. Если
Вы когда-либо уже попробовали отыскать в Интернете важную для Вас инфомацию с помощью
нескольких поисковых серверов, то скорее всего обнаружили, что каждый из них нашёл по Вашей
конкретной теме (ключевым словам) набор документов, достаточно отличающихся друг от друга.
Это связано с различными методами сбора информации и алгоритмами ведения индексной базы,
заложенными в основу работы каждого сервера, и о системе работы которой я рассказывал выше в
описаниях серверов поиска, использующих ту или иную систему.
        Наверняка, когда Вам показалось, что возможности выбранного Вами сервера больше не
позволяют найти какие-либо дополнительные документы, Вы решили попробовать поискать
документы с помощью другого сервера. Когда и его возможности будут исчерпаны, настанет пора
перейти к следующему поисковому серверу и т. д. Естественно, что подобная методика ведёт к
значительным затратам времени. Стремление облегчить решение рассматриваемой задачи дало
толчок развитию систем параллельного поиска, когда можно одновременно обратиться к целому
ряду поисковых машин с одной страницы Вашего броузера (просмотровщика Web-страниц).
Подобный сервис получил название Meta-Search Engines (Метапоисковые системы), и, как всегда
бывает, среди этой категории поискового сервиса есть свои лидеры. Типичными представителями
таких же сервисов являются узлы SuperSearch Service (http://www.robtex.com/search/query.htm)
и MetaSearch (http://metasearch.com).

SuperSearch Service
http://www.robtex.com/search/query.htm

Как я уже выше сказал, в Интернете существует достаточно большое число независимых
метапоисковых серверов, какой как раз и является замечательная система фирмы Super Search под
таким же названием. В простейшем варианте метапоисковые системы являются всего лишь
интерфейсными программами, предоставляющими на одной Web-странице одновременный доступ
к нескольким серверам, где вы можете поочерёдно вводить ключевые слова в текстовом окне
каждого из представленных поисковых серверов. Такими же сервисами являются сервис
AccuFind Search Service (http://www.robtex.com/search/query.htm), который был рассмотрён выше, и
MetaSearch (http://metasearch.com).

MetaSearch (MetaSearch Inc.)
http://metasearch.com

Также один из представителей серии технлогий метапоисковых систем Интернета.
Превосходно скомплексованный сервер с многочисленно представленными для Вашего поиска
серверами поиска, различных видов. Напоследок опять же можно сказать, что простейшие
метапоисковые серверы позволяют всего лишь сэкономить время, необходимое для установления
доступа к каждому из серверов в отдельности, не решая самой задачи параллельного поика.
AccuFind Search Service (http://www.robtex.com/search/query.htm) и SuperSearch Service
(http://www.robtex.com/search/query.htm) являются поисковыми системами такого же класса.

Open Text (Open Text Inc.)
http://www.opentext.com

Малоизвестная, но более или менее функциональная Web-индексная поисковая система.
Вообще, поисковые системы такого типа обладают очень большими базами данных и
фантастической скоростью обработки запросов, но степень обработки материала оставляет желать
лучшего. Как правило, в ответ на ввод ключевых слов дла поиска они "вываливают" ссылки на
сотни и тысячи документов, в которых действительно встречаются указанные пользователем
ключевые слова, но по смыслу подавляющие большинство этих документов имеет очень отдалённое
отношение к теме, интересующей пользователя.Яркими представителями этой ветви серверов
являются уже мной рассмотренные AltaVista (http://www.altavista.com) и HotBot
(http://www.hotbot.com).

Magellan (Magellan Inc.)
http://www.magellan.com

Эта поисковая система является типичным представителем Web-каталога - 
предметно-ориентированная система, где информация по отдельным темам собрана в
соответствующих каталогах. Поисковые системы этого типа создаются людьми, которые сами
просматривают узлы Web, читают электронную почту и телеконференции. Здесь требуется огромная
доля труда квалифицированных специалистов, занимающихся классификацией и анализом
поступающих данных. Дополнительным преимуществом каталогов можно назвать специальные
обзоры, аннотации и пр., которые готовятся аналитиками этих узлов по различным темам и
доступны пользователям этих узлов. Правда, ряд зарубежных обозревателей периодически
высказывают некоторые сомнения в объективности представления информации по темам, где
возможно давление рекламодателей.
        Естественно, что по качеству сортировки документов Web-каталоги намного превосходят
Web-индексы (заметно проигрывая им по количеству просмотренных документов), - ведь никакие
компьютеры не могут пока сравнятся с людьми в анализе тематики найденных документов. Следует
отметить, что как правило, Web-каталоги имеют внутренний поисковый механизм, который
направляет Вас в нужный раздел, если вы не очень хорошо представляете, где конкретно искать
документы по интересующей Вас теме. Также представителем Web-каталога является уже
упомянутый мною сервер Yahoo! (http://www.yahoo.com) (прим. Правда в этом случае - Yahoo! и в
случае других Web-каталогов пользователи этих поисковых серверов часто выступают
добровольными поставщиками основной массы информации, присылая ссылки на документы с
помощью обычной электрнной почты (E-mail). Здесь на благо поисковых систем использовано
такое качество людей, как стремление к известности: кто кажется от того, чтобы бесплатно
разместить в Web-каталогах информацию о своих WWW-страницах?)

Whole Internet Catalog
http://nearnet.gnn.com/gnn/wic/index.html

Whole Internet Catalog является одним из онлайновых справочников Интернета.Онлайновые
справочники также составляются людьми, но в отличие от Web-каталогов в них чаще всего
отсутсвует внутренний поисковый механизм. И пользователям приходится самостоятельно искать
на сервере нужную информацию. Также в качестве примера онлайнового справочника наиболее
известен Web Server Directory http://www.w3.org/hypertext/DataSources/WWW/Servers.html

Web Server Directory
http://www.w3.org/hypertext/DataSources/WWW/Servers.html

Этот же сервер относится к классу онлайнового справочника, где из-за отсутствующего
внутреннего поискового механизма пользователям приходится самостоятельно искать на сервере
нужную информацию. В качестве примера можно было бы привести Whole Internet Catalog
(http://nearnet.gnn.com/gnn/wic/index.html). (доп. Также существуют и внесетевые справочники,
которые обычно записаны на CD-ROM и представляют собой локальные базы данных сетевых
ресурсов. Они призваны сократить время соединения с провайдером и уровень загрузки поисковых
систем Интернета за счёт того, что с их помощью прользователь производит предварительный
поиск адресов нужных ресурсов и лишь затем выходит в Интернет. Отличный пример такого
справочника - электронный каталог А.Сигалова "Жёлтые страницы Internet. Русские ресурсы").

BigBook (Organic Online Corp.)
http://www.bigbook.com

Кроме всех вышеперечисленных типов поисковых средств в Сети можно встретить
многочисленные справочники и классификаторы, сгруппированные в различные "жёлтые", "белые"
и иные страницы, находящиеся в отличие от внесетевых справочников, информация о которых была
приведена выше, прямо на узлах Web. Этот же сервер - BigBook - является тематическим
справочником фирмы Organic Online. Также к примеру этого справочника можно привести пример
алфавитного классификатора Hoovers (http://www.hoovers.com)

Hoovers (Hoovers Inc.)
http://www.hoovers.com

Сервер Hoovers является алфавитным классификатором (справочником) Сети (Интернета),
находящимся в отличии от внесетевых справочников, информация о которых была приведена выше,
прямо на узлах Web. Также к этому разделу (классу) серверов - классу многочисленных
справочников и классификаторов - можно отнести уже выше описаный тематический справочник
BigBook (http://www.bigbook.com).

Neti (Eesti Telefon.Inc)
http://www.neti.ee

Надо сказать один из популярнейших и крупнейших поисковых серверов Эстонской Сети (если так
можно выразиться), хотя такого рода систем здесь и так мало. В основах работы заложена обычная
система поиска. Синонимы этой поисковой системы являются - скорость и качество(по утверждениям
руководства и основателей сервера).

Русскоязычные поисковые системы Интернета

AltaVista. Поиск с учётом морфологии русского языка (CompTek)
http://www.comptek.ru/alta.html

Компания CompTek International, зантмающаяся разработкой полнотекстовых поисковых систем
с учётом морфологии русского языка, создала шлюз к поисковой машине AltaVista, преобразующих
запрос так, что искомые слова ищутся во всех словоформах, и таким образом существенно
повышается качество поиска. Весьма интересной является предоставляемая на этой странице
возможность посмотреть результат морфологического разбора запроса и увидеть, какой
расширенный запрос передаётся системе AltaVista (а заодно и расширить свои теоритические
познания в русском языке).
        Правда, если же использовать основную страницу поиска AltaVista (http://www.altavista.com), то
система найдёт только те документы, где искомое слово стоит именно в том виде, как указано во
введённом запросе, и никак иначе.

Rambler (Стэк)
http://www.rambler.ru

Поисковая система Rambler создана фирмой "Стэк" для возможности поиска по русскоязычным
серверам и состоит из двух частей: поисковой программы-робота и базы данных. Компания "Стэк" 
образована в Научном Центре Биологических Исследований в г. Пущино (Московская область)
в 1991 г., автор поисковой системы - Дмитрий Крюков.
        Первая часть системы - робот, который может полчать адреса документов через proxy-сервер
или непосредственно с указанного узла, - индексирует содержание документа и помещает
результаты в базу данных. Робот может рекурсивно сканировать определённые хосты. Он
поддерживает стандартный механизм исключения роботов через файлы ROBOTS.TXT.

        Втоой частью Rambler является собственно сама поисковая система по серверам России и стран
СНГ, содержащая миллионы документов с более чем 15 000 сайтов (имён DNS). Поисковая система
Rambler поддерживает различные логические операции\ между словами, а также усечение слов с
помощью метасимволов. Пользователь может определиьь выходной формат документов,
максимальное количество результатов поиска и т. д.

        Дополнительную информацию о системе Rambler можно прочесть на сервере Петербургского
отделения Института "Открытое общество" (Фонд Сороса) в документе по адресу
http://www.spb.osi.ru/IC/DISTANT/Rambler.doc.

Апорт! (Агама, Intel)
http://www.aport.ru

Поисковая система Апорт! - это проект фирмы "Агама" при поддержке российского отделения
Intel. Система задумана и реализована как Web-индекс для осуществления поиска в российской
части Интернета, на русскоязычных серверах СНГ и мирового Интернета. Как указывается в
документе на сервере http://www.aport.ru, по состоянию на начало ноября индексная база содержит
ссылки по 1 757 208 документам (2 999 585 URL, 13 264 сервера). К сожалению, на сервере
приводится ограниченная информация по алгоритмам работы данной поисковой системы. Тем не
менее, судя по количеству найденных документов, Апорт! моэно отнести к достаточно
эффективным поисковым инструментам по русским ресурсам Интернета.
Дополнительную информацию о системе Апорт! можно прочесть на сервере Петербургского
отделения Института "Открытое общество" (Фонд Сороса) в документе по адресу
http://www.spb.osi.ru/IC/DISTANT/Aport.doc.

Яndex (CompTek)
http://yandex.ru

Эта поисковая система Интернета - часть проекта фирмы CompTek по разработке набора
средств полнотекстовой индексации и поиска в текстовых данных с учётом морфологии русского
языка. Яndex (произносится "яндекс") расшифровывается как Языковой Индекс (в английском
написании Yandex - Yet Another Index).
        Как указывается в документена сервере, продукты Яndex предназначены для работы
с большими объёмами русских текстов всех типов - в виде файлов различных форматов, полей баз
данных и страниц и страниц Интернета. В рамках проекта Яndex разрабатываются следующие
поисковые системы:

	Яndex.Web	Поисковый механизм дла русскоязычной части Интернета
	Яndex.Site	Функция, обеспечивающая удобный и быстрый поиск на Вашем
			Web-сервере
	Яndex.Dict	Подключение модуля морфологии к существующим поисковым средствам
	Яndex.CD	Индексация и поиск по статическому набору документов
	Яndex.Lib	Библиотека для подключения к существующим базам и системам
	АРГОНАВТ	Гипертекстовая оболочка с развитым лексическим и атрибутным поиском

        Поисковая машина Яndex была запущена в эксплуатацию сравнительно недавно - в конце
сентября 1997 г., область поиска системы - русскоязычная часть Интернета. Отличительные
особенности системы, в соответствии с описанием на http://yandex.ru:

Полнотекстовый поиск с полным учётом морфологии русского и английского языков
Мощный язык запросов
Возможность запроса на естественном языке (т. е. Вы печатаете Свой вопрос в таком вде, как
если бы спрашивали человека, а не машину)
Корректная обработка сленговых терминов
Возможность поиска похожего документа
Очень компактный индекс
Подсветка слов из запроса в найденных документах
Развитая релевантность, позволяющая найти информацию, не перегружая пользователя
тысячами ссылок на ненужные документы
Высокая скорость поиска

        Яndex.Web представляет собой естественное развитие программных продуктов серии Яndex
(Яndex.Site, Яndex.Dict, Яndex.CD, Яndex.Lib).

        Дополнительную информацию о системе Яndex можно прочесть на сервере Петербургского
отделения Института "Открытое Общество" (Фонд Сороса) в документе по адресу 
http://www.spb.osi.ru/IC/DISTANT/Yandex.doc.

        Если углубляться в историю проекта Яndex, то впервые эта технология была применена для
фиксированного объёма неизменяемых текстов - в справочнике "Международная классификация
изобретений" и в "Библейском компьютерном справочнике". Для работы с внуттренней структурой
документов был создан язык "Ястреб", с помощью которого поля могут быть описаны внешним
образом, что избавляет от необходимости размечать каждый документ. В целях создания больших
текстовых информационных систем на CD-ROM в настоящее время развернут проект АРГОНАВТ.
В этот проект включён набор разработок, обеспечивающих поддержку развитых словарных,
гипертекстовых и других навигационных возможностей.

        Работа Яndex основана на том что система просматривает все указанные тексты, приводит
каждое русское слово к нормальной форме (для существительных это - именительный падеж
единственного числа, для глаголов - неопределённая форма и т. д.) и запоминает подробный адрес
каждого слова. Алгоритмы морфологического разбора, которыми мы занимаемся, позволяют
проанализировать слово, определить его характеристики и найти все формы, например:
идти - идёшь - шёл; ребёнок - дети; окно - окон; отзывать - отозвали.

        При запросе на поиск текстов, включающих заданные слова, каждое слово из запроса также
автоматически приводится к нормальной форме. благодаря сохранению подробного адреса, в ответе
на запрос можно не только выдавать список найденных документов, но и показать найденные слова
внутри документа. Реализован развитый поисковый интерфейс, который позволяет помимо
стандартных логических операторов задавать поиск по близости, указывая расстояние между
словами в тексте, а также требовать, чтобы запршенные слова были найдены в пределах одного
абзаца, что уменьшает количество документов в результате запроса.

        Яndex обеспечивает индексацию одновременно с морфологическим разбором. Это позволяет
создавать компактный индекс - около 30% исходных текстов, сохраняя достаточно высокую скорость
индексации - 1-2 Мб/мин. Такая технология даёт возможность почти полного снятия омонимии на
этапе индексации.

        Морфология базируется на словаре из 90 тыс. слов, к которому добавлены алгоритмы
словообразования и механизм построения гипотез для слов, отсутствующих в словаре. Создан и
пополняется словарь имён собственных.

        Работу морфологии Яndex можно использовать не только на самом поисковом сервере Яndex,
но и на примере русского поиска с помощью системы AltaVista (http://www.comptek.ru/alta.html).
Как известно, слова в AltaVista проиндексированы просто как последовательность символов, что
заставляет пользователя при поиске специально думять о том, как русские слова изменяются при
склонениях и спряжениях. При запросе же через Яndex в запрос системы автоматически
подставляются все допустимые формы требуемых слов.

Русская машина поиска
http://search.interrussia.com

"Русская машина поиска" - это инструмент поиска информации по ключевым словам,
основанный на индексировании страниц WWW-серверов России, стран СНГ и ориентированных на
Россию зарубежных сайтов. Эта система, разработанная российской компанией RusInfOil и
размещённая на сервере в США, в 1996-1997 годах входила в число ведущих поисковых машин
российского Интернета. В момент подготовки этого материала сервер был закрыт на реконструкцию,
но посетители моего сайта, вероятно, смогут увидеть новую версию системы.

Вернуться домой

Посетите известную эстонскую поисковую систему - Neti

Поисковые системы

Международные поисковые системы Интернета

HotBot (Hotwired Inc. и Inktomi Inc.) http://www.hotbot.com

HotBot (Hotwired Inc. и Inktomi Inc.)

Yahoo! (Yahoo Inc.) http://www.yahoo.com

Yahoo! (Yahoo Inc.)

Excite (Excite Inc.) http://www.excite.com

Excite (Excite Inc.)

AltaVista (Digital Equipment Corp.) http://www.altavista.com

AltaVista (Digital Equipment Corp.)

Webcrawler (Webcrawler Inc.) http://www.webcrawler.com

Webcrawler (Webcrawler Inc.)

Lycos (Lycos Network Inc.) http://www.lycos.com

Lycos (Lycos Network Inc.)

AccuFind Search Service http://accufind.com

AccuFind Search Service

SuperSearch Service http://www.robtex.com/search/query.htm

SuperSearch Service

MetaSearch (MetaSearch Inc.) http://metasearch.com

MetaSearch (MetaSearch Inc.)

Open Text (Open Text Inc.) http://www.opentext.com

Open Text (Open Text Inc.)

Magellan (Magellan Inc.) http://www.magellan.com

Magellan (Magellan Inc.)

Whole Internet Catalog http://nearnet.gnn.com/gnn/wic/index.html

Whole Internet Catalog

Web Server Directory http://www.w3.org/hypertext/DataSources/WWW/Servers.html

Web Server Directory

BigBook (Organic Online Corp.) http://www.bigbook.com

BigBook (Organic Online Corp.)

Hoovers (Hoovers Inc.) http://www.hoovers.com

Hoovers (Hoovers Inc.)

Neti (Eesti Telefon.Inc) http://www.neti.ee

Neti (Eesti Telefon.Inc)

Русскоязычные поисковые системы Интернета

AltaVista. Поиск с учётом морфологии русского языка (CompTek) http://www.comptek.ru/alta.html

AltaVista. Поиск с учётом морфологии русского языка (CompTek)

Rambler (Стэк) http://www.rambler.ru

Rambler (Стэк)

Апорт! (Агама, Intel) http://www.aport.ru

Апорт! (Агама, Intel)

Яndex (CompTek) http://yandex.ru

Яndex (CompTek)

Русская машина поиска http://search.interrussia.com

Русская машина поиска